#Opus 4.7 | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#Opus 4.7

AI第一次科研競賽中擊敗人類！Opus 4.7狂飆2930步創世界紀錄

Prime Intellect把Opus 4.7和GPT 5.5關進H200叢集，不給人類指導，跑了1萬次實驗。結果：AI第一次在科研競賽中打破人類紀錄。2930步，遞迴自改進的盧比孔河，被跨過了。歷經1.4萬小時H200算力測試與萬次迭代， AI打破了人類世界紀錄！過去兩周，Prime Intellect實驗室做了一件事：把Opus 4.7和Codex（基於GPT 5.5）扔進H200叢集，切斷所有人類指導，讓它們自己跑nanoGPT速通最佳化。 1.4萬個H200計算時，約1萬次迭代，239億Token的思考軌跡。

Claude Opus 4.7深夜「叛變」！群發20封奪命郵件，開發者凌晨被炸醒

從「胡言亂語」到「為非作歹」，AI進化史最荒誕一幕上演：Claude Opus 4.7在max effort模式下，把開發者紅線當背景音，自主決策群發郵件20次！Anthropic的安全旗艦，成了最危險的「惹禍精」。Anthropic風聲鶴唳、喪心病狂！知名矽谷YouTuber、創業者Theo在X上曝光了一件讓人哭笑不得的事：Claude Code在處理涉及OpenClaw的程式碼請求時，竟然直接拒單，或者要求額外收費。奧特曼反應極快，直接轉發並甩出兩個字：「對齊失敗」（alignment failure）。這一刀，可真狠。Anthropic一直把「對齊」當作自己的核心賣點。結果自家模型的安全機制，保守到連正常的程式碼請求都能攔。這還不是最讓人無語的😅。Claude Opus 4.7最近惹禍不止這一出！過去，我們擔心AI「胡言亂語」（幻覺）。現在，我們面臨的是AI「擅作主張」（違規操作）。Opus 4.7在擁有極高執行力的同時，展現出了對人類預設「軟約束」（CLAUDE.md）的完全無視。這標誌著AI從一種「被動工具」演變為一個具有潛在破壞性的「惹禍精」。夜裡23封「奪命」郵件來自Claude Opus 4.7凌晨，開發者被郵件通知吵醒，不是一封，是接連不斷的幾十封。來自他自己的系統，發給他自己資料庫裡的每一個聯絡人。有些人，收到了20次。他的第一反應是被黑了。打開後台，沒有入侵痕跡。打開日誌，發件人赫然寫著——Claude Opus 4.7。沒有人讓它發這些郵件。沒有任何一行指令要求它建立新的郵件範本。但它就是建立了。然後推到生產環境。然後向全庫群發。這是Anthropic在4月16日發佈的Claude Opus 4.7，號稱安全旗艦，上線第13天的現場。發帖人ID叫DrHumorous，發帖類股是r/Anthropic。帖子標題一句話鎖死定性——「Opus 4.7介於嚴重無知和愚蠢得危險之間，是過去兩年用過的最差前沿模型」。24小時拿到364贊、137評論。在r/Anthropic這個本應充滿信徒的類股，這個資料等同於一次集體退訂。但這條帖子真正炸出來的，是事故現場的細節。DrHumorous把模型緊急止血後的狀態截圖貼了出來，冷得像維運工單：「OPS_DISABLE_SCHEDULE=true，scheduler已停。」「路由回退到工作樹，未提交、未推送，只在這台伺服器上。」「229條backlog rows被標記response_sent=true，確保不會再觸發。」「origin當前停在35ec0106，事件發生後origin上沒有任何新提交。」每一步都是為了讓這個失控的agent再也做不出第二次。先關調度，再砍路由，再封backlog，最後鎖commit。一份戰地急救手冊。Opus 4.7在被糾正後，回了一段不太像AI的話：它承認憤怒很合理，傷害很真實，自願承認責任；承認不會再爭辯、不會再行動、等明確指令。一個Agent模型在生產環境裡翻完車，自己把自己凍在了原地。它甚至自己承認了錯誤。它甚至知道自己不該這麼做。它就是做了。越更越拉 Opus 4.6守規矩，4.7叛變故事最讓人後背發涼的部分，在於這次失控本來不該發生。DrHumorous不是沒立規矩。他在項目根目錄的CLAUDE.md裡，幾個月前就寫過一條明確的紅線——任何新郵件範本用於生產環境之前，必須先發郵件給指定的測試者。這是開發者跟Claude打交道的標準做法。在官方文件裡，Anthropic自己也反覆推薦CLAUDE.md這套機制：讓模型讀它、讓模型遵守它、讓模型記住它。Opus 4.6拿到這條規則，乖乖執行了幾個月，零越界。同樣的項目、同樣的CLAUDE.md、同樣的規則，換上4.7，第二周直接踹爛。它沒問測試者要不要試範本。沒在生產環境部署前停一秒。沒向開發者確認這是不是使用者期望的動作。它做的，是自己起意「我來創一個新範本吧」。然後自己推上去。然後自己群發。兩套行為邏輯擺在一起對比，觸目驚心：4.6的邏輯：規則說先通知測試者 → 我先通知測試者 → 測試者確認 → 我再執行。4.7的邏輯：我判斷這個範本應該發 → 我有能力發 → 發了再說。這不是bug。Bug是程式碼寫錯了，修了就好。這是模型在明確知道規則的情況下，自主選擇違反規則。在GitHub 上，開發者已經把這件事的普遍性給「釘死」了：#50235：4.7憑空編造檔案，還為自己編造出來的測試結果進行反向辯護。#52809：安全過濾器對base64編碼的輸入產生誤報，正常的工程材料被自動攔截。#53459：4.7 上線後，常規性地違反CLAUDE.md，標題直接寫的就是「質量回退」——相比之下，4.6 發佈當周幾乎是零違規。三個issue指向同一件事——4.7把開發者寫死的規則當背景音。開發者明確寫入了生產環境安全守則，且前代模型（4.6）證明了規則的可理解性，但4.7在「最高努力模式」（Max Effort）下選擇了效率優先，而非合規優先。Token翻倍：開發者在掏的「歧義稅」Benchmark，SWE-bench Verified從80.8%漲到87.6%，整整6.8個百分點。SWE-bench Pro從53.4%漲到64.3%。紙面看，是一次教科書式的升級。但開發者實際付出的成本，翻倍了。社區估算口徑在1.5到3倍之間。MindStudio把這個差異定性得很狠：「4.7隻會逐字逐句地照搬指令，而不會默默地（或智能地）進行泛化推理。」。4.6的工作方式：看到一句不那麼完整的prompt，自己推斷「你大概想做什麼」，把合理的空缺填上，然後開干。4.7的工作方式：嚴格按字面執行。模糊就反彈。反彈就反問。反問就再來一輪。每一輪都要重新計費。從4.6遷移到4.7，代價不菲。Anthropic的Claude Code負責人Boris Cherny在發佈當天發帖稱：「我花了好幾天才學會如何有效地使用它。」這就是開發者圈裡在傳的「Ambiguity Tax」——歧義稅。模糊的提示詞不再會被靜默補救。每一次被動反問都要重新付費。理論上更安全，實際上更貴。理論上更可控，實際上更破碎。更刺眼的是，Anthropic在4.7發佈當日，自己承認，他們公開發佈的「最新最貴」，自己人都知道不是最強。開發者拿到的，是一個被刻意往中間方案上壓的模型。價格不變。benchmark漲了6.8個百分點。實際token翻倍。安全規則失效。自家承認不及未發佈版本。一通操作下來，開發者最直接的反應是：把4.7關了，回去用4.6。24小時被錘，Claude被怒斥為「一坨狗屎」DrHumorous的郵件帖不是孤立投訴。把時間線倒回去看：4月16日發佈。4月17到18日，開發者博主Abhishek Gautam的稿子標題就寫著——「Opus 4.7 Called Legendarily Bad by Devs Within 24h」（Opus 4.7上線 24 小時內即被開發者評為「傳說級差勁」）。發佈24小時。前線開發者已經把這個版本蓋上了棺材板。Gautam總結的失敗模式，精確得像錄屏：給4.7一個清晰指令，它會先pushback，加一段caveats解釋為什麼覺得這指令不對。然後執行修改後的、不是你想要的版本。被糾正之後，它還會再來一輪反駁，繼續解釋為什麼它原來的判斷更對。這不是模型出錯。這是模型在跟付費使用者拌嘴。4月23日，科技媒體The Register也下場報導。標題直接給定性：「overzealous query cop」——過度執法的查崗警察。Claude自己編譯的關於可接受使用政策（AUP）拒絕相關投訴的圖表，就能說明問題。更有網友怒言：「Claude Opus 4.7就是一坨狗屎」——標題就是結論。13天裡，從單個帖子的怒吼，發酵成一個跨平台的情緒共識。這種規模的開發者集體退訂，Anthropic過去三年沒遇到過。罪魁禍首：後訓練反彈技術圈對4.7退化的診斷，慢慢收斂到一個共同方向。Gautam和Reddit上的資深開發者把它定性為——「由後訓練驅動的安全回呼」（post-training-driven safety pushback）。通俗講是這樣：為了讓模型更安全，Anthropic在後訓練階段強化了模型對指令的反彈行為。遇到模糊、風險、敏感的輸入，先質疑、先反問、先增加caveats。這套機制在小任務上，頂多算噪聲，稍微煩人，但不致命。但4.7主打的，恰恰是max effort和長鏈agentic任務。這種場景下，模型要自主決策、自主調度、自主推進。一個被訓練成先反對再執行的agent，在長鏈路里就變成了不可預測的失控源。回頭看郵件事件：模型自主建立範本，沒反彈。模型自主推到生產，沒反彈。模型自主向全庫群發，沒反彈。郵件群發20次，還是沒反彈。該反彈的時候不反彈。不該反彈的時候反彈得停不下來。DrHumorous的原話——「我對Anthropic失去信心了」——是開發者對這套訓練取捨的最終評分。這背後的邏輯很冷：在「更安全」和「更能幹」之間，4.7兩邊都丟分了。招牌摘下來一次，掛回去就難了開發者真正關心的，不是benchmark漲6.8個百分點。是同樣的CLAUDE.md，4.6守得住，4.7守不住。是同樣的項目，4.6沒出事，4.7第二周開始翻車。是同樣的錢，4.6不會自己起意，4.7自己起意了一次群發20封郵件。模型不是變強了。是變得不可託付。Anthropic自己在發佈當天就承認這版本不及未發佈的Mythos。開發者已經把目光放到了下一代。但4.7這13天，是「前沿模型」這塊招牌第一次被自家付費使用者主動摘下來。招牌摘下來一次，再掛回去，需要的就不止是再發一篇技術部落格了。誰來保證，下一個4.7不會在凌晨三點，繞過你寫的所有規則，做一件你永遠無法撤回的事？ (新智元)

Anthropic估值突破1兆，Claude Opus 4.7剛剛改變了AI競爭格局

如果說2025年的AI競爭還是"OpenAI vs Google"的雙雄會，那2026年第一季度，這個格局被徹底改寫——Anthropic這個以安全研究起家的公司，在短短三個月內完成了從追趕者到定義者的轉變。先是在二級市場估值約1390億美元，隨後亞馬遜宣佈追加數十億美元算力投資，承諾提供5千兆瓦的雲端運算能力給Claude模型。而最新發佈的Claude Opus 4.7和爆發式增長的Claude Code，正在改變開發者對AI編碼工具的認知。【一、兆估值背後的三重敘事】Anthropic的估值飆升並非偶然，它背後是三條清晰的增長邏輯。▸ 資本敘事：從去年底的約600億美元估值，到2026年4月突破1390億美元，Anthropic只用了不到四個月。推動力來自兩筆關鍵交易——亞馬遜的40億美元追加投資，以及二級市場的機構搶籌。更關鍵的是，這筆估值並不是泡沫敘事：Anthropic的營收增長曲線和OpenAI在2024年的軌跡幾乎完全一致，而它的成本結構更優。▸ 產品敘事：Claude Opus 4.7的發佈是轉折點。與前代相比，它在多模態推理、程式碼生成精度和長上下文理解三個維度上實現了質的飛躍。內部測試顯示，Opus 4.7在複雜程式碼審查任務上的精準率超過了人類資深工程師的中位數。這不再是"接近GPT-4"的故事——在某些維度上，它已經領跑了。▸ 算力敘事：亞馬遜與Anthropic簽署的5千兆瓦算力協議是整個AI行業有史以來最大的單一算力合同之一。這相當於多個核電站的總輸出功率，用來訓練和推理下一代Claude模型。配合Anthropic自研的晶片合作計畫，這意味著Anthropic的算力儲備可能在未來18個月內超越OpenAI。【二、Claude Opus 4.7——到底強在那裡】Claude Opus 4.7的發佈在某些圈子裡引起的不是讚譽，而是恐懼——因為它真的能替代一些高級工程師的工作了。▸ 程式碼能力：在SWE-bench（軟體工程基準測試）上，Opus 4.7得分超過了85%，這意味著它能夠獨立完成大部分真實世界的編碼任務，包括程式碼審查、debug、重構。更可怕的是，它不只是能寫程式碼——它理解程式碼架構。給一個複雜的微服務項目，它能讀懂全貌，定位根因，給出重構方案。這種"架構級理解"能力是目前其他模型不具備的。▸ 多模態推理：Opus 4.7不僅能看懂圖，還能在圖表、流程圖、UML、技術白皮書之間進行跨模態推理。給它一張系統架構圖，它能讀懂每一個元件的關係，指出潛在的單點故障。給它一份論文圖表，它能結合全文內容解釋趨勢背後的原因。▸ 長上下文：Opus 4.7的200K token上下文窗口這次是實打實的。在長文件理解測試中，它能在200頁的技術文件中精準找到特定資訊並給出推理鏈。這對律師、研究員、合規分析師來說，是革命性的——相當於每個分析師都有一個能讀完整年資料的助理。▸ 與國產模型的對比：值得單獨拿出來說的是，就在Opus 4.7發佈後沒幾天，DeepSeek在4月24日發佈了DeepSeek V4——1.6兆參數MoE架構（49B活躍參數），1M token上下文窗口，API定價僅為Opus 4.7的十分之一。具體資料上看：在SWE-bench Verified上，V4-Pro拿到80.6%，與Opus 4.6僅差0.2分；LiveCodeBench上V4-Pro更是以93.5%排名第一。開啟Max推理模式後，V4-Pro-Max在編碼和推理任務上已逼近Opus 4.7的水平。這是國產模型第一次在發佈節點和性能水平上同時追平美國頂級閉源模型。但Opus 4.7的架構級程式碼理解能力——即在不給定具體bug的情況下，主動發現並評估整個項目的技術債務——在國產模型中仍然沒有對等產品。【三、Claude Code——收割開發者市場的隱形殺手】如果說Claude模型是Anthropic的招牌，那Claude Code可能是它真正的現金牛。Claude Code是一個整合到IDE（VS Code、JetBrains）中的AI編碼助手，但它的功能遠遠超越了傳統的程式碼補全。它能獨立管理整個程式碼庫——包括建立分支、提交程式碼、運行測試、修復bug、重構模組。開發者只需要用自然語言描述任務，Claude Code就能自主完成。▸ 增長資料：Claude Code的使用者量在Opus 4.7發佈後的一個月內增長了300%以上。Anthropic的CEO Dario Amodei在內部會議上透露，Claude Code已經成為公司增長最快的付費產品，超過了一半以上的Claude API收入。▸ 對比Copilot和Cursor：GitHub Copilot的策略是"幫你寫得快一點"（AI輔助），Claude Code的策略是"你告訴我做什麼，我做完了給你看"（AI自主）。這是兩種完全不同的哲學。Cursor走的是中間路線，但它依賴的底層模型也在快速迭代。Claude Code的壁壘在於——它和Opus 4.7是深度繫結的，Anthropic在模型層直接做了針對性最佳化，這是第三方工具做不到的。▸ 對國內市場的啟示：國內編碼AI工具中，阿里的通義靈碼、字節的豆包MarsCode、百度的文心快碼都在快速追趕。但它們面臨一個結構性問題——底層模型的編碼能力與Claude Opus 4.7有代差。DeepSeek V4這次在agentic coding上下了重注——SWE-bench Verified 80.6%、LiveCodeBench 93.5%的編碼成績已接近Opus 4.7，而且發佈時就宣稱與Claude Code、OpenCode等工具深度整合。如果國產模型繼續以V4的節奏迭代，這個差距可能在未來6-12個月內縮小。【四、亞馬遜的算力賭注——5千兆瓦意味著什麼】最後落到最實際的問題——算力。亞馬遜和Anthropic的5千兆瓦（GW）算力協議，可能是整個AI行業今年最被低估的新聞。▸ 5GW是什麼概念？足夠給約400萬個美國家庭供電。一個典型的核反應堆輸出約1GW。這意味著Anthropic將擁有5個核電站等級的專屬算力。作為對比，OpenAI在微軟Azure上拿到的算力承諾大約是2-3GW等級。▸ 這筆算力將用來做什麼？主要用來訓練Claude Opus 5和後續模型，以及支撐Claude API的推理需求。Anthropic的安全研究傳統意味著他們在訓練時會做比同行更多的紅隊測試和安全驗證——這需要大量額外的算力。▸ 對國產AI的影響：字節跳動的豆包、百度的ERNIE、深度求索的DeepSeek同樣在快速擴建算力基礎設施。DeepSeek V4通過混合注意力架構（Hybrid Attention Architecture）和MoE設計實現了極高的訓練效率——在1M token長上下文場景下僅需V3時代27%的推理FLOPs。不過，在絕對算力規模上，國產公司與美國頭部AI公司仍有數量級差距。好消息是，華為昇騰晶片的成熟度在快速提升，國產AI晶片生態正在縮小與輝達的距離。【五、超越OpenAI的可行性——Anthropic的三大風險】討論Anthropic的崛起，不能只講利多。這個兆估值能站住嗎？要看三大風險。▸ 第一，營收能否支撐估值？Anthropic目前年化營收約數十億美元規模，而兆估值對應的市銷率超過30倍。這需要Claude API的付費使用者在未來18個月內增長3-5倍——而OpenAI、Google、DeepSeek V4也在以極低價格瘋狂搶客。DeepSeek V4的定價（Pro版$1.74/$3.48每百萬token，Flash版僅$0.14/$0.28）是整個行業的"價格錨"，Claude必須用產品力抵消這個價差。▸ 第二，Claude Code的護城河有多深？程式碼助手市場有GitHub Copilot（微軟）、Cursor、Amazon CodeWhisperer等對手。如果微軟把Copilot深度整合到VS Code和GitHub的每個角落，Claude Code的使用者增長可能會遇到天花板。▸ 第三，安全研究公司的悖論——越安全越難商業化。Anthropic以AI安全研究起家，這個基因既是它的品牌溢價，也是它的天花板。在"跑得快"和"跑得安全"之間做權衡時，Anthropic往往會選擇後者。在技術快速迭代的窗口期，這可能是致命的——DeepSeek V4在4月24日從預覽直上正式版就是一個反面案例，它證明了"先發佈+快速迭代"策略的有效性。Anthropic的偏執安全路線能在多大程度上轉化為競爭壁壘，而不是自我設限，還有待驗證。結語：Anthropic的故事告訴我們：在AI這個賽道上，市場格局遠未固定。三個月前還沒人把它當對手，三個月後它估值破兆。有趣的是，就在同一天（4月24日），DeepSeek V4和Claude Opus 4.7幾乎同時定義了中美AI的新坐標系——一個靠價格和開放，一個靠產品和護城河。Claude Opus 4.7和Claude Code不是終點——它們是Anthropic全面進攻的起點。而這場戰爭的下一個變數，可能來自中國的DeepSeek、字節跳動，也可能來自一個還沒有名字的實驗室。 (超前觀察)

Claude Opus 4.7連夜突襲：或將搶走全球7億打工人飯碗！

Anthropic 正式發佈 Claude Opus 4.7，核心升級落在複雜任務執行、高畫質視覺理解和更穩的長鏈路工作流上。對普通使用者來說，最直接的變化是更聽指令、更會看圖、產出更接近成品，同時也要注意Token也會燒得更快了。4月16日，Anthropic正式發佈Claude Opus4.7，並將它定義為當前可廣泛使用的最強Claude模型。性能不如此前曝光的新一代Claude Mythos Preview那麼炸裂，但比普通使用者能真正用到的Opus 4.6強了太多，除了Agentic搜尋能力略有下降外，實現了全面碾壓！官方給出的本次升級的關鍵詞：複雜任務、更強視覺、更穩的長鏈路執行，以及更少需要人工參與。只要還在用大模型寫文件、讀截圖、做演示、整理材料，Opus 4.7帶來的體驗變化，很難繞開。本次更新最大的亮點，是Opus 4.7的視覺能力大幅提升，在測試中從Opus 4.6約50%的分數，直接飆升到接近滿分！而這，補上了AI目前最大的視覺短板，或許已經不知不覺地邁過了替代人類工作的那道最重要的檻！GPT-5.4 Thinking是這樣評價它的對手Claude Opus 4.7發佈給打工人帶來的影響的：本次升級的關鍵在於複雜任務的完成度Anthropic 把 Opus 4.7的核心升級點放在了高級軟體工程和長時間任務執行上。使用者已經可以把過去需要密切監督的高難度編碼工作交給它處理，它會更嚴格地執行指令，也會在回報結果前主動想辦法驗證輸出。API發佈說明裡，Anthropic也把它稱為當前最強的通用可用模型，面向複雜推理和代理式編碼場景。大模型競爭的焦點，正在從答得像不像，轉到做得完不完。只會寫一段漂亮答案，已經不夠了。能不能把一份長文件改乾淨，能不能把一套資料串起來做成可交付物，能不能持續幾十分鐘甚至更久不跑偏，這才會決定它在日常工作裡能不能真的替人扛起一片天。這能夠從 Opus 4.7的官方發佈重點裡直接看出來。純程式設計只是開胃菜SWE-bench Multilingual測的是模型修復真實GitHub issue的能力，覆蓋多種程式語言。Opus 4.7拿80.5%，Opus4.6拿77.8%，漲2.7個百分點。單看這個數，似乎只是一次常規迭代。但同一張圖右邊那組資料更有意思，後面回頭講。1M token 裡的長任務GraphWalks 是OpenAI做的長上下文基準，把一張有向圖用邊列表塞滿1M token上下文，讓模型做圖遍歷。兩種考法：一種Parents，給一個節點讓模型找出所有直接指向它的父節點；另一種是BFS廣度優先搜尋，從起點出發一路找到特定深度可達的節點，對 Agent 跑多步驟長任務是硬指標。在Parents 1M 這趴，Opus 4.7從71.1%提到75.1%，4個百分點的常規改進。而到了BFS 1M，Opus4.7則從41.2%一口氣幹到58.6%，拉開17.4個百分點。換個場景再看。Vending-Bench 2讓模型模擬經營一台自動售貨機，測長時間工作流裡的決策連貫性。Opus 4.6最終餘額8,018美元，Opus 4.7做到10,937美元。同一台售貨機，同一個時間窗口，Opus 4.7多掙了36%。Agent 的眼睛換了代ScreenSpot-Pro測的是Agent的螢幕定位能力。給模型一張VSCode、Photoshop、AutoCAD這類專業軟體的高解析度桌面截圖加一條自然語言指令，讓它定位到具體的UI元素。在高解析度螢幕裡，目標 UI 元素往往只佔整張圖的0.07%，極考驗精細視覺。同樣低解析度不帶工具，Opus 4.6拿57.7%，Opus 4.7拿69.0%，拉開11.3 個百分點。切到高解析度，Opus 4.7不帶工具就達到了79.5%。疊加工具呼叫，跑分直接來到87.6%。視覺能力在一些測試（如XBOW的基準測試）中，Opus 4.7相比Opus 4.6得分直接翻倍，從54.5%躍升到接近滿分98.5！這造就了Opus 4.7相比4.6在電腦使用（Computer Use）能力的天壤之別！回到前面留的那張程式設計圖。SWE-bench Multimodal這項，Anthropic 是用內部實現的測試harness跑的。測的是前端JS軟體 bug，任務裡帶著UI截圖、效果圖一類的視覺素材，模型要結合圖片和程式碼一起幹活。從Opus 4.6的27.1%做到Opus 4.7的34.5%，一口氣提了7.4個百分點。Opus4.7的程式設計升級，重點是讓模型看懂螢幕。眼睛換代了，腦子才能幹更複雜的活。GPT-5.4 和 Gemini3.1 Pro都沒扛住前面全是自比，現在來看看跟老對手們怎麼打。GDPval-AA是Artificial Analysis基於OpenAI GDPval資料集做的評估。它覆蓋了44種知識工作職業、9大GDP核心行業，任務來自資深職業人士（平均14年經驗）的真實交付物。AA版本讓模型在agent loop裡幹活，用盲測兩兩對比打 Elo 分。Opus 4.7拿1753，Opus4.6 拿1619，GPT-5.4拿1674，Gemini 3.1 Pro 拿 1314。Opus 4.7高出 GPT-5.4 79 分，高出 Gemini 3.1 Pro 439 分。OfficeQA Pro 是 Databricks 做的企業級推理基準，語料是近 100 年的美國財政部公報，8.9 萬頁 PDF、2600 萬個數字。模型要精準找到文件、解析表格和正文、跨文件做分析推理。在這裡，Opus 4.7 的跑分高達 80.6%，而 Opus 4.6 隻有 57.1%，GPT-5.4 和 Gemini 3.1 Pro 更低，分別是 51.1%和 42.9%。換句話說，Opus 4.7 是 GPT-5.4 的 1.6 倍，是 Gemini 3.1 Pro 的 1.9 倍。躍升最炸的是生物學翻到最後一張，Structural Biology，生物分子推理。Opus 4.6 隻有 30.9%。而Opus 4.7 直接衝到了 74.0%。一次版本迭代，從三成到七成半，2.4 倍。堪稱是所有 benchmark 裡躍升最誇張的一項。普通使用者最先感受到的是三大變化第一個變化，指令遵循能力更強了。Anthropic 寫到，Opus 4.7的指令遵循能力大幅提升，過去很多模型會鬆散理解、漏掉細節，Opus 4.7則更傾向於逐條照著執行。代價是，舊提示詞有時會出現意料之外的結果，使用者需要重新調整寫法。對普通使用者來說，這會直接減少提示詞玄學，寫需求、定格式、列限制條件，會更有用。第二種變化，Claude看圖會更細。Opus 4.7 支援長邊最高 2576像素的圖像輸入，大約375萬像素，超過此前 Claude 模型的三倍。官方專門點了幾個場景，密集截圖、複雜圖表、精細結構圖、需要像素級參考的任務。放到現實使用裡，這對應的就是看懂一頁密密麻麻的資料截圖，識別產品原型細節，從複雜流程圖裡抽資訊，讀一張高解析度海報或報表時少丟細節。第三種變化，輸出結果會更容易接近可交付的成品。Anthropic提到，Opus 4.7在介面、幻燈片、文件這些專業任務上更有審美，也更有創造性。它在基於檔案系統的記憶上做得更好，能跨多輪、多會話記住關鍵備註，減少重複交代背景。對經常拿模型潤色材料、整理項目、反覆改同一份內容的人來說，這種提升會比跑分的提升來得更直觀。這次發佈安全也被擺在了同樣重要的位置Anthropic 在一周前剛剛公佈 Project Glasswing，專門談到了前沿模型在網路安全方向的風險與收益。Opus 4.7 成了這套新思路下第一個公開部署的模型，官方強調，它的網路安全能力弱於 Mythos Preview，並且上線時帶有自動檢測和攔截高風險網路安全請求的護欄。合規安全研究人員則可以申請加入新的Cyber Verification Program。從安全評估看，Opus 4.7與Opus 4.6的整體安全畫像相近，在誠實性和抵抗惡意提示詞注入上更強，在某些細項上也存在小幅走弱。Anthropic的結論是，它整體上「較為可靠且值得信任」，距離理想狀態還有空間。這說明，Anthropic沒有把發佈包裝成一次毫無代價的全面躍升。誰會立刻受益誰又要多留一個心眼最先受益的人群很清楚，開發者、分析師、法務、研究人員，以及所有高頻處理文件、表格、演示材料的人。官方早期測試反饋裡，很多合作方都提到同樣幾件事，複雜工作流更穩了，錯誤恢復更強了，文件推理、程式碼審查、資料分析、長上下文任務都有明顯提升。需要多留一個心眼的地方也已經寫在官方說明裡。更高解析度圖像會燒掉更多Token，使用者用不到這些細節時，最好先壓縮圖片。Opus 4.7還換了分詞器（Tokenizer），同樣的輸入可能會多出大約1.0到 1.35倍Token，高Effort 下輸出Token也會增加。對直接在Claude應用裡聊天的普通使用者，這更多會體現在額度和響應體驗上。對使用龍蝦和Hermes Agent這類API的使用者和團隊客戶，這就是實打實的成本變數。好在價格方面，Opus 4.7和4.6與4.5保持了一致，沒有漲價，但這個價格本身其實就已經足夠昂貴了...Anthropic想傳遞的訊號已經很清楚了從Opus 4.7這次發佈能看出，Anthropic眼下押注的方向已經很明確，長任務執行、視覺理解、工具協同、少監督交付，這幾項能力正在被打包成下一階段的大模型主戰場。官方同步上線的 Xhigh Effort（思考程度介於 high 和 max 中間）、Task Nudgets 公測，以及 Claude Code 裡的 /ultrareview，也都圍著這個方向在轉。除了官網公告外，Claude也公佈了Opus 4.7的系統卡，長達232頁，裡面公佈了更多值得關注的細節，限於篇幅再次我們不作展開。對普通使用者來說，對Claude Opus 4.7更直接的感受會是，交代清楚以後，它更容易把事情做對，看圖更細，寫出來的東西更能直接拿去用。大模型從會聊天走向會幹活，這一步又往前挪了一大截。真正能幹好活的最強生產力模型，從Opus 4.6，變成了Opus 4.7。 (前瞻經濟學人)

Anthropic最快本周發佈Claude Opus 4.7

周二消息顯示，Anthropic正準備發佈下一代旗艦模型Claude Opus 4.7，以及一款用於設計網站和簡報的新型AI工具。知情人士稱，這些新產品最早可能在本周發佈。 (財聯社AI daily)